相似度比率式鑑別分析應用於大詞彙連續語音辨識 (Likelihood Ratio Based Discriminant Analysis for Large Vocabulary Continuous Speech Recognition) [In Chinese]
نویسندگان
چکیده
在近十年來所發展出的自動語音辨識(automatic speech recognition, ASR)技術中,仍 有許多研究者嘗試僅藉由前端處理來產生具有鑑別性的語音特徵,而獨立於後端模型訓 練與分類器特性。本論文即在此思維下提出嶄新的鑑別式特徵轉換方法,稱為普遍化相 似度比率鑑別分析(generalized likelihood ratio discriminant analysis, GLRDA),其旨在利 用相似度比率檢驗(likelihood ratio test)的概念尋求一個維度較低的特徵空間。在此子空 間中,我們不僅考慮了全體資料的異方差性(heteroscedasticity),即所有類別之共變異矩 陣可被彈性地視為相異,並且在分類上,因著我們也將類別間最混淆之情況(由虛無假 設(null hypothesis)所描述)的發生率降至最低,而達到有助於分類正確率提升的效果。 同時,我們也證明了傳統的線性鑑別分析(linear discriminant analysis, LDA)與有名的異 方差性線性鑑別分析(heteroscedastic linear discriminant analysis, HLDA)可被視為我們所 提出之普遍化相似度比率鑑別分析(GLRDA)的兩種特例。此外,為了增進語音特徵的 強健性,我們所提出的方法更可進一步地與辨識器所提供的實際混淆資訊結合,而獲得 在中文大詞彙連續語音辨識的實驗中,相較於以上兩種傳統方法更高的辨識正確率。
منابع مشابه
主題語言模型於大詞彙連續語音辨識之研究 (On the Use of Topic Models for Large-Vocabulary Continuous Speech Recognition) [In Chinese]
本論文研究使用主題資訊之語言模型(Language Model)。當語言模型用於大詞彙連續語 音辨識時,其主要的任務是藉由已解碼歷史詞序列資訊來預測下一個候選詞出現的可能 性。傳統的 N 連(N-gram)語言模型容易受限於模型參數過多的問題,僅能用來擷取短距 離的詞彙接連資訊,並不能考慮完整的歷史詞序列之語意資訊。因此,近十幾年來許多 研究學者陸續提出各式主題模型(Topic Model),包括討論文件與詞之關係的機率式潛藏 語意分析(Probabilistic Latent Semantic Analysis, PLSA)和潛藏狄利克里分配(Latent Dirichlet Allocation, LDA),以及討論詞虛擬文件與詞關係的詞主題模型(Word Topic Model, WTM)。這些模型主要都是透過一組潛藏的主題機率分布來描述文件與詞、或者 詞虛擬文件與詞之間的關係...
متن کامل整合邊際資訊於鑑別式聲學模型訓練方法之比較研究 (A Comparative Study on Margin-Based Discriminative Training of Acoustic Models) [In Chinese]
鑑別式聲學模型訓練在近代自動語音辨識(Automatic Speech Recognition, ASR)中扮演 重要的角色。在許多基於不同思維且能有效地提昇辨識率的鑑別式聲學模型訓練方法陸 續被提出後,對於訓練方法的相關推廣與改進便如雨後春筍般地興起;而這些方法在本 質上,皆是在描述訓練語句與語音辨識器所產生對應詞圖(Word Graph)之間的關係。本 論文首先將統整與歸納近年來所發展的多種鑑別式聲學模型訓練方法,並以三種最具代 表性鑑別式訓練方法:最小化分類錯誤(Minimum Classification Error, MCE)、最大化交 互資訊(Maximum Mutual Information, MMI)、最小化音素錯誤(Minimum Phone Error, MPE)為範例,透過有系統地轉換與化解方程式,得到聲學模型訓練準則的共通表示函 數型態。我們可以發現到,對於...
متن کامل運用概念模型化技術於中文大詞彙連續語音辨識之語言模型調適 (Leveraging Concept Modeling Techniques for Language Model Adaptation in Mandarin Large Vocabulary Continuous Speech Recognition) [In Chinese]
在實作上,概念模型會使用(搜尋)與初步語音辨識結果相關的同領域文件(或 調適語料)內表述的若干概念,用以近似語者內心欲傳達的真正含意,並基於此 來建立概念語言模型。而概念語言模型的建立是分兩個面向來探討,它們分別是 「詞彙」面向與「文件群聚」面向。首先,在實作上,概念模型會使用(搜尋)與 初步語音辨識結果近似同領域文件(或調適語料)內表述的若干概念,用以近似語 者內心欲傳達的真正含意,並基於此來建立概念語言模型。而概念語言模型的建 立是分兩個面向來探討,它們分別是「詞彙」面向與「文件群聚」面向。首先, 我們發展所謂的詞概念語言模型(Word-based Concept Language Model),並應用 於語言模型調適。在建構詞概念語言模型時,我們期望能夠針對每一語句不同的 語意內容(第一階段語音辨識結果,以詞圖[3]表示),在調適語料的若干相關的文 件中挑選一組具有代表性的概念...
متن کامل利用聲學與文脈分析於多語語音辨識單元之產生 (Generation of Phonetic Units for Multilingual Speech Recognition Based on Acoustic and Contextual Analysis) [In Chinese]
摘要 由於全球化趨勢之盛行,多語語音常出現於會議紀錄及一般對話等方面。對於會議紀錄及對話系統而 言,多語語音自動辨識日顯重要。在多語語音自動辨識中,辨識單元集之定義及選取,將影響辨識之效率 及效能。本論文針對中英文利用 IPA 定義之多語語音辨識單元集,考慮前後文相關之三連音模型,並進一 步透過對聲學相似度與前後文脈分析,決定一組精簡有效的多語辨識單元。在相似度矩陣分析中,首先我 們利用事後機率統計,建立聲學相似度矩陣,然後,基於發音共聲現象的考量,分析語音發音上之相似度。 本論文更引入語言超空間相似度之觀念,計算三連音辨識單元前後文脈之關係,建立語言超空間相似度矩 陣。最後利用資料融合技術,合併聲學相似度矩陣和語言超空間相似度矩陣,以計算三連音辨識單元間之 距離,而後利用向量量化群集方法合併相似性高之三連音辨識單元,建立一個有效的多語語音辨識單元 集。本論文以 EAT 中英雙語語料...
متن کامل以二維共振峰分布建立語者音色模型及其在語者驗證上之應用 (Using 2D Formant Distribution to Build Speaker Models and Its Application in Speaker Verification) [In Chinese]
語音是人類彼此間溝通最方便也最首要的方式。語音不但是用於傳播信息,也是一項重要的生物特徵 (biometrics),可以用來做身份識別之用。對於利用電腦來分析語音這方面的研究,大致可分為兩個領域: 一是語詞識別(speech recognition),一是語者識別(speaker recognition)[1-4]。若是要分辨某一個語音 樣本是否來自某一個特定的語者,則又稱為語者驗證(speaker verification 或 speaker authentication)。 語者驗證又可細分為限定語詞(text dependent)與非限定語詞(text independent)兩種方式[5,6]。在限 定語詞的方式中,用來比對的兩段語音樣本,其語音之內容須為相同或相似。而在非限定語詞的方式下, 其語句之內容可為不同。後者之處理難度較高,但在取樣上較不受限,其應用也較為廣泛。本研...
متن کامل